Repensando la Regularización de Divergencia en RL para LLMs
Descubre DRPO: un nuevo método que reemplaza el recorte de ratio con regularización cuadrática suave para estabilizar el entrenamiento RL en modelos de lenguaje.
Descubre DRPO: un nuevo método que reemplaza el recorte de ratio con regularización cuadrática suave para estabilizar el entrenamiento RL en modelos de lenguaje.